推理

几何平均策略优化GMPO:让大模型推理训练更稳健

近年来,强化学习在推动大语言模型进步的过程中扮演着越来越关键的角色,尤其是在提升模型推理能力方面。然而,传统方法在训练过程中常因奖励异常值导致重要性采样比率剧烈波动,进而引发策略更新不稳定、泛化能力受限等问题。为此,微软亚洲研究院提出一种新型稳定化训练算法——

模型 推理 策略 几何 gmpo 2025-09-12 14:57  6

通用Agent是伪命题?昆仑万维方汉现场拆解:垂直推理才是胜负手|新智元十年峰会

在新智元十周年峰会上,昆仑万维董事长兼CEO方汉分享了企业三年四代「天工」的演进故事。从音乐、视频到智能体,昆仑万维在AIGC与AGI浪潮中不断突破,实现了从互联网平台到AI原生公司的转型。昆仑万维凭借全球化布局与持续创新,正在勾勒「破界·融合·共生」的未来愿

推理 昆仑万维 agent 方汉 通用agent 2025-09-11 20:27  10